查看原文
其他

ChatGPT看图写话-妈妈再也不用担心小孩的学习

田可可 云上奇谭 2024-01-18

欢迎点击上方蓝字关注


我是田可可,云上奇谭主理人,目前可可致力于成为1万名行业人士和AI技术的连接器,帮助大家找到AI,认知AI,用好AI,做AI时代的先进生产者!

引言

最近,ChatGPT在移动端和网页端都完成了重大更新,Plus用户可以直接将图片扔给ChatGPT进行问答和分析。

也就是说,ChatGPT不再只有文本理解能力,还拥有视觉理解能力!可以预见,在不久的将来,ChatGPT会演化成一个活生生的人,听说读写,每一项能力都超过普通人!

我猜测这应该是Andrej Karpathy重返OpenAI的一个大项目。

那么ChatGPT分析和理解图像的能力到底有多强呢?我进行了下面的测试。

其实Midjourney也可以根据图片给出文本描述,但是Midjourney主要局限在绘画领域,生成的文本描述也主要是为了绘图使用的。ChatGPT其实是一种通用视觉能力,目标其实就是让ChatGPT模仿人类一样,可以看,可以听,可以说,这样就可以对图像进行上下文相关的连贯性对话分析。

测试

有人说,能识别图片有什么用?

  • 为有视觉障碍的人装上眼睛,OpenAI和Be My Eyes联合开发了Be My AI,就是通过计算机视觉理解,让盲人可以看到眼前的世界。
  • 识别生物物种,当遇到也不认识图片中的物体,可以让ChatGPT识别,并且进一步通过ChatGPT的对话和上下文理解能力,学习物种的相关知识。
  • 看图写话,小学生作文,妈妈再也不担心了,可以用ChatGPT帮忙看看图,看看有啥想法。

例子很多,这里就不一一列举,下面我们来用真实的例子测试,看看ChatGPT的视觉处理能力。

图片描述

图片描述能力基本都已经非常完善,这个能力类似Midjourney的Describe描述图片的能力,但是有些隐含信息它还是很难挖掘到。

这里的图片其实隐含了一个二维码,但是ChatGPT并不能识别。

物体识别

下面是识别昆虫,我测试了几个都准确。可以非常准确识别图片中是什么物种,并给出相关信息介绍。

下面这个超级复杂的图片,ChatGPT也没有拒绝,完全可以OCR(一种图像文本提取识别技术)识别里面的文字,并完成翻译。




这个图像OCR其实之前就比较成熟了,但是ChatGPT也可以直接做,而且还能给出提取后的文本坐标。

物体识别,文本OCR,ChatGPT基本问题不大,识别的很精准了。基本你再任何地方,可以通过拍照,识别你不认识的文字,让ChatGPT帮你分析。

看图找片

是不是刷短视频的时候,不知道视频来自哪一个电影和电视剧,可以截图,找ChatGPT去搜索。下面我用了电影《阿凡达》的海报询问是哪一步电影,ChatGPT给出了正确的回答。

目前我测试了下,相对来说只有旧电影,国外的电影电视剧识别率较高,但是国内的识别率较低,这个应该是训练数据集的原因。

专业图像分析

我给了一张显微镜下的切片图像,这是比较专业的图像了,普通人基本不太清楚这是什么图片,但是AI知道,它清晰的描述了这幅图片可能是怎么制作的,经过相关专业同学确认,它说的都是正确的。当然,它并没有办法判断这个细胞组织是否有病变异常,但是直接让我去咨询病理医生,方向也是正确的!

在这方面,ChatGPT的能力是超过普通人的,除非是专业的医生或者对切片图像比较熟悉的人,否则很难给出这个答案。

可以看出,对于医疗建议,ChatGPT非常小心谨慎,这是OpenAI有意控制的,毕竟,像百度一样出现医疗事故那就不好解释了

小学生看图写话

现在小学生都有看图写话的考试和作文,这个可以直接丢给ChatGPT识别和写作。

直接让它从多个角度展开分析和写作。

我觉得这个可能会成为一种教育应用,为父母指导小孩写作有一定帮助。

八卦分析

下面这个分析了宝强和马蓉的照片,ChatGPT确实准确判断出谁和谁是情侣关系,但是还是需要人为提示,主要是引导他,因为它给出的第一个回答确实是正常的回答。

风险识别控制

类似于GPT-4,GPT-4V的训练于2022年完成,并在2023年3月开始提供早期访问。由于GPT-4是GPT-4V的视觉能力背后的技术支撑,因此其训练过程是相同的。首先,预训练模型经过大量的文本和图像数据(来自互联网和有许可的数据源)进行下一个单词的预测训练。然后,利用一种名为强化学习从人类反馈中进行加强学习的算法(RLHF)对模型进行进一步微调,以产生更受人类训练者偏好的输出。

由于风险合规问题,在OpenAI 发布的GPT-4V(视觉)系统卡报告中,指明了如下几个风险:

  • 科学知识
  • 医疗建议
  • 刻板印象和毫无根据的推论
  • 虚假信息的风险
  • 会引起仇恨和厌恶的内容
  • 视觉漏洞

比如,所有解析图片中的人物、地点等敏感信息的要求,ChatGPT都直接拒绝回答了,因为涉及到隐私,但是它可以给出通用性的描述。

所以OpenAI对这一部分内容会有比较严格的风险控制,如果你触碰了风险,比如直接让ChatGPT开出药方,ChatGPT会直接拒绝回答。

总结

现代教育体系基本都是从普鲁士教育演化而来,大部分普通人就是学习某个领域的专业知识,培训后上岗就业。

我认为现在的ChatGPT就是一个有高潜力的尖子生,能够考上哈佛大学(国外专家团队已经测试过其考试能力)。这就像一个还没有进入专业领域的高中生,考上大学以后,将会接受专业训练,甚至博士阶段的更细分领域的训练,然后成为领域专家。

而ChatGPT背后的通用大模型,也是这样一个尖子生,让这个尖子生复制N份,每一份都去专攻不同行业领域的细分问题(微调),它可能很快就可以上岗,完成之前需要很多人力和培训成本才能完成的工作。

基于大模型的通用人工智能技术,未来将会渗透到各行各业,对各行各业产生影响。如何应对未来AI技术在各个行业的影响,值得每个行业人士思考。


往期精彩内容

揭秘ChatGPT-4充值方法,科学冲浪获取一手资料和插件模式

几招教你绕过风控开通OpenAI的API

为何OpenAI能领先大厂开发出ChatGPT的大模型?


欢迎点赞,收藏,转发,在看


我是田可可,中科大硕士,从事云计算AI工作,目前可可致力于成为1万名行业人士和AI技术的连接器,帮助大家找到AI,认知AI,用好AI,做AI时代的先进生产者!

欢迎加我vx,Q_aicloud_Q,备注“田可可AI连接器”,我建立了AI行业连接器群,帮助大家交流AI、认知AI、用好AI,无论你是教师,医生,律师,宝妈,学生,老板,还是房地产,互联网,新能源等行业从业者,如果你有兴趣,如果你想成为先进生产者,不甘于只做短视频AI时代的无脑消费者,希望通过AI挣钱,都可以加入,我们一起探索用AI生产优质内容和产品。


继续滑动看下一个

ChatGPT看图写话-妈妈再也不用担心小孩的学习

田可可 云上奇谭
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存